摘要。机器学习 (ML) 在解决计算机视觉、语音识别、对象检测等各种问题方面取得了巨大成功。这一成功的主要原因是可用于训练深度神经网络 (DNN) 的大量数据集。但是,如果数据集包含敏感信息(例如医疗或财务记录),则无法公开发布。在这种情况下,数据隐私成为一个主要问题。加密方法为这个问题提供了一种可能的解决方案,但它们在 ML 应用程序上的部署并不简单,因为它们会严重影响分类准确性并导致大量计算开销。或者,可以使用混淆技术,但在视觉隐私和准确性之间保持良好的平衡具有挑战性。在这项工作中,我们提出了一种从原始私有数据集生成安全合成数据集的方法。在我们的方法中,给定一个在原始数据集上预先训练的具有批量归一化 (BN) 层的网络,我们首先记录逐层 BN 统计数据。接下来,使用 BN 统计数据和预训练模型,我们通过优化随机噪声来生成合成数据集,以使合成数据与原始模型的分层统计分布相匹配。我们在图像分类数据集 (CIFAR10) 上评估了我们的方法,并表明我们的合成数据可用于从头开始训练网络,从而产生合理的分类性能。1
主要关键词
![arXiv:2210.03205v5 [cs.CR] 2023 年 2 月 11 日PDF文件第1页](/bimg/0/029591a87235ecbe1731ab20897d656a17b19aad.webp)
![arXiv:2210.03205v5 [cs.CR] 2023 年 2 月 11 日PDF文件第2页](/bimg/a/a6442d054aae78ecee838ba5011b13d737a6718a.webp)
![arXiv:2210.03205v5 [cs.CR] 2023 年 2 月 11 日PDF文件第3页](/bimg/0/0c185248e1b303352f42fda5aa5962af494d530c.webp)
![arXiv:2210.03205v5 [cs.CR] 2023 年 2 月 11 日PDF文件第4页](/bimg/2/22f1ae7f37c66447739ab281e3c3a0ccf64a6d75.webp)
![arXiv:2210.03205v5 [cs.CR] 2023 年 2 月 11 日PDF文件第5页](/bimg/3/39a00745b3bb0eff805c1984acbca8ff7458b918.webp)
